Une étude en 3D de la paraphrase: types de corpus, langues et techniques (A Study of Paraphrase along 3 Dimensions : Corpus Types, Languages and Techniques) [in French]

نویسندگان

  • Houda Bouamor
  • Aurélien Max
  • Anne Vilnat
چکیده

A study of paraphrase along 3 dimensions : corpus types, languages and techniques In this paper, we report a detailed study of the impact of corpus type on the task of sub-sentential paraphrase acquisition. Our experiments are for 2 languages and 4 corpus types, and involve an efficient machine learning-based combination of 4 paraphrase acquisition systems. We obtain relative improvements of more than 27% in F-measure over the best individual system on English and French, and obtain a relative improvement over the combination system of 22% for English and 5% for French when using all other corpus types as additional training data for our most readily available corpus type. MOTS-CLÉS : acquisition de paraphrases, constitution de corpus.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

A Methodology for semi-automatic structuring of a bilingual lexicographical corpus: the French-Kabyle case (Méthodologie pour la structuration semi-automatique du corpus dans une perspective de traitement automatique des langues : le cas du dictionnaire français-kabyle) [in French]

Résumé L’objectif de cette contribution est de proposer une méthodologie nouvelle de structuration de corpus à l’aide d’outils informatiques récents permettant aux linguistes non-spécialistes en informatique de constituer des corpus structurés en vue de leur exploration par des outils de traitement automatique des langues naturelles. Il s’agit, plus exactement, de présenter le processus d’infor...

متن کامل

Etude de la paraphrase sous-phrastique en traitement automatique des langues. (A study of sub-sentential paraphrases in Natural Language Processing)

Language variation, or the fact that messages can be conveyed in a great variety of ways by means of linguistic expressions, is one of the most challenging and certainly fascinating features of language for Natural Language Processing, with wide applications in language analysis and generation. The term paraphrase is now commonly used to refer to textual units of equivalent meaning, down to the...

متن کامل

Building a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection

Résumé. La création de ressources linguistiques de bonne qualité annotées en entités nommées est très coûteuse en temps et en main d’œuvre. La plupart des corpus standards sont disponibles pour l’anglais mais pas pour les langues peu dotées, comme le vietnamien. Pour les langues asiatiques, cette tâche reste très difficile. Le présent article concerne la création automatique de corpus annotés e...

متن کامل

Mapping Phrase Structures to Dependency Structures in the Case of (Partially) Free Word Order Languages

Les corpus sont très utiles pour de nombreuses tâches dans le domaine du traitement automatique des langues naturelles. Les corpus annotés syntaxiquement sont devenus une ressource importante en TAL. Ils sont couramment utilisés, par exemple comme banc d’essai pour la génération, l’analyse et la désambiguı̈sation sémantique, et comme source pour l’acquisition de ressources (collocations, informa...

متن کامل

3D Mesh Coding Techniques Applied to CAD Data: A Comparative Evaluation

This paper presents a study of 3D mesh compression techniques within the specific framework of CAD applications. A state-of-the art of 3D mesh compression approaches is first presented and analyzed under the light of CAD data specificities. A CAD corpus, provided by the French car manufacturer RENAULT is then quantitatively analyzed in terms of geometricotopological properties. This analysis re...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012